06667 現時点でベストな音声入力環境
https://flic.kr/p/2ou5fMn https://live.staticflickr.com/65535/52826233503_629beb9e92_3k.jpg
先日下記の記事を書いたところ、音声入力について詳しく知りたいとのリクエストを相次いでいただきました。 メールやメッセージの類はほぼ全て喋って書いています。この記事も歩きながらiPhoneに喋って入力しています。音声認識ソフトが一般に売られるようになった20年ほど前から各種の音声認識ソフトやサービスを試用し、遅くとも2012年以降日常的に利用している音声入力については、shiologyでも色々と書いてきました。現視点でshio.iconが使っている環境や工夫をご紹介します。 https://flic.kr/p/2ou5fKZ https://live.staticflickr.com/65535/52826233423_71ca329c85_3k.jpg
音声入力の仕組みは大きく分けて2種類あります。
1. クラウド型:マイクから取り込まれた音声をクラウドに送信し、サーバで音声認識を施してテキストデータを生成し、そのテキストデータを端末に送り返す方式
2. 端末型:音声を端末内で音声認識してテキストデータに変換する方式
20年ほど前はすべて専用ソフトウェアをインストールする端末型、その後は徐々にクライド型が増えて主流になりました。でも現在、shio.iconが使っているのは100%端末型です。たまにクラウド型を試用するけど、端末型の方がベター。
shio.iconが使っている端末型はApple純正。OSに入っている機能です。
Mac:M1以降(現時点ではM1とM2)のAppleシリコンを搭載したMac。それ以前のIntelチップを搭載したMacでは同じ音声入力機能でありながらクラウド型。なので、この1点だけ考えてもAppleシリコンを搭載するMacを使う価値がある。 iPhone/iPad:現行のiPhone/iPadはすべて端末型の音声認識エンジンが搭載されています。iPhone X以降、iPhone SEは第二世代以降です。 Apple公式の案内はこちら。
https://flic.kr/p/2ou3Wcz https://live.staticflickr.com/65535/52825975879_d86e3b0ee5_3k.jpg
端末型なら音声認識プロセスが端末内で完結します。そのメリットは色々。
しゃべってからテキストが表示されるまでのタイムラグが小さくレスポンスが良い
音声がクラウドに送信されないため、秘匿性に優れている。音声がクラウドに送信されると(契約次第で)その内容やデータがどのように使われるかわかりません。少なくとも業務利用には端末内で完結する端末型を使いたい
通信が発生しないので通信状態の良し悪しに認識精度が左右されない
屋外でどんなに音声認識を利用してもパケット(いわゆる「ギガ」)を費消しない
ネットに全くつながっていない状態で音声認識が100%機能する
shio.iconは今でも時々、Apple以外の音声入力アプリやサービスを試しています。しばらくそれらを試用しているうちにApple純正の音声認識に戻してしまう。結論として現時点ではApple製品に搭載されているApple純正の音声認識機能をそのまま使うのがベストという印象です。
その要因は、端末型であること以外に以下の諸点が挙げられます。
起動の早さ、簡便さ、簡単さ
認識の正確さ
すべてのアプリで安心して使える安定性
自動挿入される句読点の適切さ
単語登録など、OSとのインテグレーションや利便性
無音が30秒間続くまでタイムアウトしない継続性
https://flic.kr/p/2ou3Wc9 https://live.staticflickr.com/65535/52825975854_5c0f2b685a_3k.jpg
したがって、Mac/iPhone/iPadを使っていれば、なんら特別のアプリやハードウェアを追加することなく、快適に音声入力できます。現状、shio.icon的ベストです。
https://flic.kr/p/2ou5fDG https://live.staticflickr.com/65535/52826233058_3772a4076d_3k.jpg
単体で十分高精度ですが、その利便性をもっと上げたり、認識精度をさらに向上させるための工夫を続けています。
Macの音声入力開始ボタンはF5ですが、それに加えてoption+zを割り当てています。キーボード手前に置いた左手を動かすことなく音声入力を始めることができて便利です。
認識精度の向上はマイク。
入力される声の音質を良くすると、誤認識が減ります。特に屋外での認識精度に顕著な差異があります。またマイクと口との距離が近い方が認識精度が高まります。そして滑舌良く明瞭に喋る。
ヘッドフォンとして頭に乗せる使い方はもちろんのこと、頭からおろして首の周り、肩に乗せてもマイクがちょうど口元に位置する。高音質なヘッドフォンでありかつ音声入力用マイクとしてもピカイチ。
https://flic.kr/p/2ou5fCu https://live.staticflickr.com/65535/52826232988_2de4dae17e_3k.jpg